杨蔚:OpenAI o1与人工智能的过去与未来
2024年9月13日,人工智能研究公司OpenAI发布了最新版本的o1模型预览。令人意外的是,这个号称能够解决大模型在数理逻辑方面缺陷和幻觉问题的重大更新,却并没能延续ChatGPT-4和Sora(人工智能文生视频大模型)的瞩目,公众的关注中多了一份谨慎和审视。
为什么不是GPT-5?性能是否真的达到了宣传中的效果?OpenAI的著名法则,“算”力出奇迹的ScalingLaw(缩放定律)是否已走到极限?相比ChatGPT推出伊始的势如破竹,一次次OpenAI新品发布不断发酵的却是逐步积累的质疑和猜想。经历最初的惊艳和狂热后,公众对于大模型技术和应用的潜力和未来了更多不同的声音。
与其他技术创新相比,人工智能技术似乎展现出更为明显的周期性,常常在公众和资本热度过后引发争议,甚至陷入沉寂。然而,历史证明,社会舆论和投资者预期的剧烈波动并不能真实反映人工智能技术的发展轨迹和内在价值。人工智能技术及其应用的突破,往往是在沉寂与质疑中酝酿并最终爆发的。
AlphaGo的前尘往事
时间回到2010年。当时的人工智能技术发展可以说正处于黎明前最后的黑暗时刻。彼时还是助理教授的李飞飞刚刚发布了Imagenet——世界首个大型的非结构化图片数据库。
直到两年后,当今人工智能的主流技术卷积神经网络,才在基于这个数据库的视觉识别比赛中,超越其他技术路径异军突起。而人工智能对于高度模糊、变动性不确定性极大的语言文本分析处理能力,更是无从谈起——基于卷积神经网络的注意力机制改进,也就是我们现在大语言模型的基础,更是直到2017年才初具雏形。
在这样的技术混沌期,一个名不见经传的人工智能初创企业悄然在英国伦敦诞生了。回顾这家企业当时网站上简略模糊的信息,我们很难想象它会在日后成长为巨大影响力的独角兽,并在人工智能发展中引起轩然大波。企业由一个没有任何人工智能经验的神经外科博士和他的同事创办,没有产品,没有技术专利,也没有收入。网站上仅有的信息,显示这家公司是在探索和游戏、机器学习、电子商务算法相关的人工智能。
令人意外的是,这家大西洋彼岸的初创企业DeepMind引起了马斯克的注意。在特斯拉业务初见起色的2011年,他以天使投资人的身份参与到了DeepMind的发展中。
有趣的是,马斯后来说起对Deep-Mind的投资,是出于对电影《终结者》的恐惧,这与5年后他成立OpenAI的初衷如出一辙。值得注意的是,马斯克早期的经营重点更多还是放在了特斯拉上,对于外部初创企业的投资,其实并不频繁。但这两家有着马斯克身影的初创型组织,虽然没有像马斯克希望的那样去真正解决人工智能的伦理和风险问题,却两度成为推动这一技术从低谷走向高峰的最重要力量。
DeepMind的真正转机出现在马斯克投资之后,即谷歌的收购要约。谷歌在2014年以6.6亿美元的超高溢价,打败了同为硅谷巨头的竞争对手脸书,收购了DeepMind及其团队。至此,这家一直寻觅技术路径和应用场景的初创企业,似乎找到了别具一格的探索方向——研究用人工智能下围棋。
对计算机对弈算法的研究其实并不鲜见,最早可以追述至人工智能诞生伊始。IBM的深蓝在1997年就在国际象棋的竞技中打败了人类选手。但围棋的难度是空前巨大的,围棋棋盘中两子对奕所衍生出来的棋路可能性,甚至超过整个宇宙中原子的数量总和。围棋战略对抗中高度的复杂性,意味着优秀的围棋选手不仅依靠大强度的训练,更是在经验积累中不断强化的天赋和直觉。传统的计算机程序依靠穷举或暴力演算搜寻,显然无法复制顶尖棋手对弈决策中罕见的天赋型能力,超越更是无从谈起。在DeepMind之前的数十年,计算机的围棋水平仅能勉强对战业余选手。
当DeepMind宣布要用其开发的人工智能围棋程序AlphaGo挑战世界顶尖的九段围棋高手、已经拿下18个冠军头衔的李世石时,无论是计算机科学家还是围棋界都普遍都认为人类的胜利在这样的挑战中几乎毫无悬念。李世石本人在赛前曾预测,“5盘棋不应该是3/2,也许是4/1或5/0,但我一定会赢”。
这场发生在2016年3月的结果却出乎所有人意料,AlphaGo以4:1的成绩战胜了李世石,震惊世界。当代人工智能技术通过围棋,这一古老且家喻户晓且具有社会验证属性的策略竞技方式,空前直白地展现出惊人潜力。AlphaGo胜利所带来的轩然大波与7年后ChatGPT的火爆如出一辙,都深刻地塑造了其后人工智能技术的发展。
AlphaGo的影响首先出现在相关的开发者社区当中。我和美国杜兰大学的张雨辰教授2022年发表于《战略管理期刊》(StrategicManagementJour-nal)的研究中,通过分析开发者问答社区Stackoverflow和世界上最大的开源代码平台GitHub的开发者行为数据发现,AlphaGo使得开发者在人工智能创新中,能够更好的运用平移、类比等思维认知模式提出更为复杂的问题。而复杂问题的求解,是新兴技术突破后进一步创新的关键。
AlphaGo通过围棋挑战所得到的社会范围的关注、认可和性能验证,不仅进一步确定了其选择的深度学习的技术潜力,更激励和影响了人工智能领域的投资活动和人才储备。正是这些微观基础层面的悄然变革奠定了日后整体人工智能技术发展的基础。
技术成功之后
AlphaGo出人意料的成功,背后离不开母公司谷歌的支持。早在2004年上市时,谷歌就拥有硅谷最大的服务器集群之一,更是在2015年就推出了自己的专有算力芯片TPU,其计算能力甚至超过了当时的主流运算芯片英伟达。强大的算力是深度学习人工智能算法发展不可或缺的配套资产。
值得注意的是,DeepMind在被收购后,不再需要直接应对大部分营收压力。作为谷歌子公司,DeepMind在人工智能上取得的科研成果,更多是面向谷歌内部的转化,被应用到其搜索、视频推荐和数据中心能源系统管理等业务,这使得DeepMind在很大程度上可以不计成本地专注研发,不断推进技术本身的性能潜力。
新兴技术的突破,往往是初创企业与技术巨头通力合作的结果,这样的互动还会进一步塑造技术的发展。
初创企业通常被视作颠覆性技术的来源,具有极大的创造力和探索精神,但商业化过程中,却面临缺乏市场经验、客户资源和配套资产的挑战。巨头和成熟企业往往具备很强的商业化能力以及相关资源,但因路径依赖和长期发展积累的组织惰性,往往在研发过程中只能基于现有的成功产品进行渐进式创新搜寻。
因此,初创企业和巨头通过并购、战略投资等合作,不仅能推动初创企业的技术创新,也成为技术巨头获取新技术的重要窗口和通道。
我在与美国得克萨斯大学奥斯汀分校 McCombs商学院的 FranciscoPolidoro教授的合作研究中发现,生物制药领域的重大创新同样离不开大型药厂战略投资的参与,这样的战略投资和并购也会影响新兴技术其后的发展。为了更好的利用巨头的配套资产,初创企业的技术路径会向巨头逐渐靠拢。
在人工智能领域,AlphaGo对于谷歌人工智能算法和服务器的利用,同样展现出这样的特点,并直接影响技术性能的发展,进而决定AlphaGo与李世石对决中的胜利。
然而,AlphaGo所引发的热潮并未能一直持续。围棋的复杂性、竞技性和对抗性与典型可变现的商业化应用场景具有很大的区别。热度散去后,深度学习的商业前景开始受到质疑。DeepMind选择蛋白质解析这个在生物学中看似极为专业聚焦的领域作为商业化的第一个尝试,似乎也验证了公众对于深度学习商业化潜力的质疑。
在AlphaGo基础上的AlphaFold展示出同样惊人的性能潜力,通过预测蛋白质内极大的数量的氨基酸形态解析蛋白质结构,2年内完成了超过15万个人类蛋白质解析,超过生物学家过去50年通过传统方法完成工作量的3倍。然而,社会却因为这一基础领域探索在应用广度上的局限,对技术整体的商业化前景产生了质疑,寄予深度学习的关注和期望在这个期间逐渐降温,风险投资的增长也逐步趋缓。
但实际上,深度学习技术真正蜕变成具有更为广阔应用潜力的通用性技术,却是在这样的社会验证引发的关注高潮过后、在公众热情退却的冷静期悄然实现的。
2020年,AlphaFold2推出,在其后的2年内完成超过100万个物种2.14亿中蛋白质结构的预测解析,几乎涵盖了世界上全部的“蛋白质宇宙”。这一成果在很大程度上解决了传统蛋白质解析面临的因人力资源和仪器资金高投入所面临的效率问题,为下游相关的生物制药和医疗应用领域研发打开了新的大门。蛋白质解析领域的领军人物施一公曾经评价到,“AlphaFold蛋白质解析是本世纪最重要的科学突破之一”。
2024年5月,AlphaFold3推出,在原有的卷积神经网络和增强学习技术上,AlphaFold3运用了大模型中广泛运用的注意力机制加扩散算法。在不断的迭代发展中,AlphaFold3已经可以蛋白质以外的几乎所有的生物分子结构。
这意味着,这一技术可以更为广泛地应用在生物学、高科技甚至是部分传统的生产制造领域。从分子结构层面对于材料、配方和生产流程的进一步理解,能够极大拓宽这些领域的技术以及应用机会,而对于这样技术的应用所带来的知识变革,也将会对这些行业的竞争蓝图产生深刻甚至是颠覆性的影响。
未来之路
纵观从AlphaGo到AlphaFold3的发展过程,我们看到的是过去9年间,从技术爆发到应用的迷茫,再到特定领域聚焦的探索,最后在不断向外扩展的应用边界中呈现出更为确定的通用潜力。这个历程无疑验证了比尔盖茨的名言,“我们总是高估未来两年内发生的变化,低估未来十年内发生的变化”。
面对ChatGPT和更为新兴的大模型技术,也许在不远的未来,我们仍会看到AlphaGo所经历过的风口沉寂。尽管性能惊人,大模型的真正应用还要攻克技术、应用场景、商业模式等众多挑战。
首先,创新的商业化应用是高性能技术的成功组合,而不是单一技术的延展。目前,大模型基于表征关联产生的幻觉问题,也许需要辅助技术的加持,而不是单一在技术内寻求性能突破。如何通过技术的叠加和组合,让大模型能够更为有效地在预训练的基础上学习和理解世界,也许成为未来技术突破和从技术上竞争优势的关键之一。
第二,大模型本身性能的提升和商业化,也有赖于人工智能技术之外多维度的创新突破。技术的成功商业化离不开与技术相匹配的配套资产的发展。尤其是大模型的ScalingLaw,指数级极大参数叠加才能带来语义理解性能的倍数提升,这使得当前人工智能的训练和推理从本质上就无法避免极大的算力消耗。如何能够提高大模型的效率降低能耗,从算法上用更小的参数实现相同的性能,从数据上提高训练效率。这些都是大模型进一步发展亟待解决的问题。
第三,大模型的不确定性还来自于人工智能基础科研层面面临的挑战。纵观美国信息技术以及其他高新技术的发展史,由政府资助、高校主导的基础科研一直发挥着至关重要的基础知识生产、筛选和初步转化的的职责。包括互联网等当代至关重要的技术发明,最初都诞生于高校科研。但大模型的超高的算力需求以及相应的资本投入,已经超出了目前美国学校的经费承受能力,这使得人工智能领域的基础科研向企业转移——李飞飞和前谷歌首席科学家辛顿在2023年10月的一次对话访谈中如是说。
在很大程度上,任何以单一应用导向的基础研究都具有很高的风险。在新兴技术发展的早期,实现尽可能大的技术多样性,才能够保证最优的创新组合在充分的技术竞争中得以留存,最终成为主导。企业以商业应用和利润为导向的本质,有可能会导致其基础科研过早偏于保守和单一,错过更为激进但有效的远程技术机会。
中国的人工智能技术同样面临这样的风险。如何从高校科研、通过企业合作和政府支持的双重模式,寻求多样的技术可能性,或许能在一定程度上缩短AlphaGo由企业主导的技术探索期,成为未来人工智能技术更为快速破局的关键。
在应用层面,AlphaGo的发展历程,对于我们理解人工智能的未来,也具有启示意义。新技术应用层面的成功商业化,起始于与技术特点和路径最为适配的相关领域,随着应用的逐渐成熟,才会在这些领域的临近区域寻求延展机会,最后在更为广阔的层面延展泛化。
在人工智能的发展中,公众热情和投资所呈现的周期性,也源于技术早期的真实适用范围与外界预期的错配。而过早投资在应用领域,在新兴技术性能无法适配的情况下强行寻求应用甚至人为制造风口,并不能真正加速技术的成熟,反而会导致稀缺资源的浪费和错配。
喧嚣过后,对于挑战的直面和努力,对于风险下的契机识别和把握,对于制度的不断完善和资源配置的悉心规划,也许是当下实现从ChatGPT到通用人工智能蜕变的基础和关键,让这一备受关注的技术,在更长远的未来真正赋能各个应用领域的产业升级和变革。
(作者系中欧国际工商学院管理学副教授杨蔚)
来源 | 《经济观察报》